https://github.com/PacktPublishing/Machine-Learning-Algorithms
一樣先導入套件,上面的是用來算數學的;下面的是用來畫畫的,並且幫它們取綽號(np & plt)。
import numpy as np
import matplotlib.pyplot as plt
再來,用seed()隨機產生整數的亂數後,設定資料集的數量100,n_features=2、centers=3代表我們希望產生三個二維的群集,而且不會儲存Y(_取代),因為Y的值是一維的。
from sklearn.datasets import make_blobs
np.random.seed(1000)
nb_samples = 1000
X, _ = make_blobs(n_samples=nb_samples, n_features=2, centers=3, cluster_std=1.5)
可以看到以下是我們的結果,資料被分成三群了。
from sklearn.cluster import KMeans
km = KMeans(n_clusters=3)
km.fit(X)